分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
准确的交通预测对于智能运输系统至关重要。尽管许多深度学习模型已经达到了最新的1小时交通预测,但长期交通预测跨越多小时仍然是一个重大挑战。此外,大多数现有的深度学习流量预测模型都是黑匣子,提出了与解释性和解释性有关的其他挑战。我们开发了图形金字塔自动构造(X-GPA),这是一种基于注意力的空间 - 速率图神经网络,使用了新型金字塔自相关注意机制。它可以从图表上的长时间序列中学习,并提高长期流量预测准确性。与几种最先进的方法相比,我们的模型可以实现高达35%的长期流量预测准确性。 X-GPA模型的基于注意力的分数提供了基于交通动态的空间和时间解释,这些解释会改变正常与高峰时段的流量以及工作日与周末流量的变化。
translated by 谷歌翻译
根据线性随机微分方程进化的扩散过程是连续时间动态决策模型的重要家族。最佳政策对它们进行了充分研究,并确定了漂移矩阵。然而,对于不确定的漂移矩阵的扩散过程的数据驱动的控制知之甚少,因为常规离散时间分析技术不适用。此外,尽管该任务可以被视为涉及探索和剥削权衡取舍的强化学习问题,但确保系统稳定性是设计最佳政策的基本组成部分。我们确定流行的汤普森采样算法可以快速学习最佳动作,仅产生了时间根的遗憾,并在短时间内稳定了系统。据我们所知,这是汤普森在扩散过程控制问题中抽样的第一个结果。我们通过从两个飞机和血糖控制的两个设置的实际参数矩阵的经验模拟来验证理论结果。此外,我们观察到,与最先进的算法相比,汤普森采样显着改善(最坏的)遗憾,这表明汤普森采样以一种更加保护的方式探索。我们的理论分析涉及特定的特定最优歧管,该歧管将漂移参数的局部几何形状与扩散过程的最佳控制。我们希望这项技术具有更广泛的兴趣。
translated by 谷歌翻译
这项工作研究了无处不在的强化学习政策的理论绩效保证,用于控制随机线性季节系统的规范模型。我们表明,随机确定性等效策略解决了探索 - 开发困境,以最大程度地减少根据随机微分方程进化的线性动力学系统中的二次成本。更确切地说,我们建立了时间段的正方形遗憾界限,表明随机确定性等效策略可以从单个状态轨迹中快速学习最佳控制动作。此外,显示了与参数数量的线性缩放。提出的分析介绍了新颖而有用的技术方法,并阐明了连续时间增强学习的基本挑战。
translated by 谷歌翻译
基于学习的线性系统控制最近收到了大量的注意。在流行的设置中,真正的动态模型对决策者未知,并且需要通过将控制输入应用于系统来交互式学习。与用于自适应控制单个系统的有效加强学习政策的成熟文献不同,目前没有导致多个系统的联合学习的结果。特别是,快速可靠的关节稳定化的重要问题仍然是唯一的,因此这项工作的重点是唯一的。我们提出了一种新颖的基于联合学习的稳定算法,用于从不稳定状态轨迹的数据中快速地学习所有系统的稳定政策。所提出的程序被认为是显着有效的,使得它在极短的时间段内稳定动力系统系列。
translated by 谷歌翻译
线性动力学系统是具有不确定动态的基于植物学习控制的规范模型。该设置包括一种随机微分方程,其捕获植物的状态演变,而真正的动态矩阵是未知的,并且需要从观察到的状态轨迹的数据学习。一个重要的问题是确保系统稳定,并且由于模型不确定性而稳定并使控制行动被排除在尽快。为此目的的可靠稳定过程可以有效地学习不稳定的数据,以在有限时间内稳定系统的不可用。在这项工作中,我们提出了一种新颖的贝叶斯学习算法,该算法稳定了未知的连续时间随机线性系统。呈现的算法是灵活的,并且在与系统相互作用的显着短时间后暴露有效的稳定性能。
translated by 谷歌翻译
学习线性时间不变动态系统(LTID)的参数是当前兴趣的问题。在许多应用程序中,人们有兴趣联合学习多个相关LTID的参数,这仍然是未探究的日期。为此,我们开发一个联合估计器,用于学习共享常见基矩阵的LTID的过渡矩阵。此外,我们建立有限时间误差界限,取决于底层的样本大小,维度,任务数和转换矩阵的光谱属性。结果是在轻度规律假设下获得的,并在单独学习每个系统的比较中,展示从LTID的汇集信息汇总信息。我们还研究了错过过渡矩阵的联合结构的影响,并显示成立的结果在适度误操作的存在下是强大的。
translated by 谷歌翻译
背景多武装匪徒是加强学习的经典模型,用于与个别信息相关联的顺序决策。用于匪徒的广泛使用的策略是汤普森采样,其中来自数据驱动的概率信念关于未知参数的样本用于选择控制动作。对于这种计算快速算法,性能分析可在完整的上下文中提供。然而,对于未完全观察到的问题,众所周知。我们提出了汤普森采样算法,用于部分可观察到的上下文多武装匪,并建立理论性能保证。从技术上讲,我们表明,所呈现的策略的遗憾与时间和臂的数量和尺寸线性缩放。此外,我们建立学习未知参数的速率,并提供说明性的数值分析。
translated by 谷歌翻译